2025年度vivo開發者大會于10月10日成功舉辦。此次大會延續了“同心?同行”主題,開設主會場及11大分會場。在互聯網技術分會場上,多位vivo專家針對撥測&融合流量管理、微服務架構與Dubbo性能優化、全鏈路多版本環境落地、GPU容器與AI訓練平臺等方面分享了vivo最新的探索和實踐成果,同廣大線上與會者共議最新趨勢下的業務智勝之道。
智驅流量,效贏增長
在飛速發展的互聯網信息化時代下,抓住并充分利用“流量”將為業務增長帶來“潑天”富貴,已成為共識。如何通過真實、海量的數據為精細化流量管理提供堅實的數據基礎,并基于這些數據,打造一個集成本、質量、效率于一體的融合流量管理平臺,進一步為業務賦能,也成了各行各業的關注焦點。

vivo互聯網撥測監控負責人 莫瀚
vivo互聯網撥測監控負責人莫瀚詳細介紹了vivo撥測的現狀、能力及如何支持流量調度。他指出,撥測在vivo的核心使命是為所有業務和產品的高可用保駕護航。在實踐中,通過構建一個覆蓋全球,以自有真實手機作為撥測載體的探測網絡,成功為智能調度提供了數據基石。在此之上,通過輸入,執行,處理,應用的閉環流程,vivo將原本被動,依賴經驗,效率低下且高風險的人工調度動作,升級成為以數據驅動的智能主動調度體系,不僅釋放了運維人力,效率和可靠性方面更得到極大提升。

vivo互聯網運維平臺研發負責人 周建華
在數據決策基石構建之后,vivo互聯網運維平臺研發負責人周建華分享了如何在基石上搭建一座‘融合流量管理’的大廈。和很多公司一樣,vivo采用了私有/公有云結合的混合云架構。雖然該架構十分典型,但也會帶來復雜難管理、成本壓力高、質量挑戰大、運維效率低和安全風險高五大核心挑戰。他表示,vivo通過打造融合流量管理平臺,實現了統一納管、智能決策、安全防護和監控自動化,不僅運維效率大幅提升,用戶體驗也得到改善。同時他還透露,未來將聚焦AI驅動的深度優化、流量管理的持續深化、打通網絡質量和業務指標的關聯,進行持續探索。
微服務架構探索,Dubbo性能優化
隨著用戶規模的擴大和業務范圍的全球化,vivo啟動微服務化以賦能業務增長,通過全網治理,收斂Dubbo作為Java技術棧RPC框架。面對業務規模的快速擴張,為保障系統的高性能與穩定性,vivo在Dubbo路由與負載均衡的性能優化方面進行了多方位的實踐。
針對Dubbo路由的優化與擴展,vivo互聯網Java中間件架構師張振威在會上介紹,vivo首先針對多機房場景通過建設就近路由能力,顯著降低了RT敏感性業務的請求延遲,增強了業務的可用性與多機房容災能力;其次針對路由鏈,從精簡鏈路和引入位圖緩存結構兩大方向進行了系統性優化,大幅提升路由執行效率。

vivo互聯網Java中間件架構師 張振威
在Dubbo的負載均衡方面,vivo基于社區版本構建了vivo自適應負載均衡能力,重點優化了P2C算法并引入權重計算單元,實現了負載均衡器基于提供方負載進行流量自適應與平滑調度的能力,最終顯著提升服務質量與容量,同時實現降本增效的目標。
張振威還表示,未來將致力于推進Dubbo與開源社區版本對齊,同時構建跨語言的統一微服務治理平臺。為此,vivo計劃建設一套標準化的、語言無關的微服務治理平臺。該平臺將提供統一的服務發現、流量監控、流量治理以及服務觀測能力。真正實現“多語言開發,一體化治理”的目標,以降低未來的系統復雜性與運維成本。
全鏈路多版本環境管理,效率與并發的飛躍
在日常開發中,“環境”問題往往是開發工作效率提升的最大瓶頸之一。對此,vivo互聯網DevOps架構師吳清華在會上分享了vivo的實踐案例,以往需耗時2人天的環境準備工作,現在只需一鍵觸發分鐘級自動完成,受到了與會者高度關注。
日常開發所需要面對的“環境”問題主要集中在:環境不穩定、測試環境混亂、環境占用嚴重、資源利用率極低等方面,且這些問題并非個案。吳清華介紹,傳統的環境管理方式已經走到盡頭,必須找到一種全新的方法,能夠讓多個版本像“平行宇宙”一樣,安全、隔離、高效地同步測試與發布。

vivo互聯網DevOps架構師 吳清華
經過反復思考和探討,vivo采用了“全鏈路多版本環境管理”理念,并將其凝練成三把關鍵“利刃”:第一是「全鏈路能力」,確保版本所依賴的所有組件和整條鏈路都能一鍵拉起、即時就緒;第二是「多版本并行」,讓每個版本都在自己的“沙箱”里運行,徹底告別資源搶奪,終結“搶環境”的戰爭;第三是「環境自動化管理」,從環境搭建、彈性伸縮到閑置回收,全部自動完成,實現全生命周期的自動化,真正實現降本增效。
不僅如此,吳清華還介紹了全鏈路多版本環境管理,通過環境編排、彈性資源和流量隔離三大關鍵技術構筑堅固的鐵三角,為vivo帶來了巨大的收益。未來,將采用研效環境標準化和資源成本高效化雙軌并行策略,建立更高效、經濟、可靠的研發環境體系,并打造更先進的環境管理體系。
GPU容器與AI訓練,讓業務更穩定更高效
GPU平臺是大模型時代的重要基礎設施,vivo的GPU平臺架構由物理層、容器平臺層和AI工程層組成,支撐vivo的智能計算業務。

vivo互聯網容器架構師 陳瀚
vivo互聯網容器架構師陳瀚表示,容器平臺在大規模GPU集群,通過架構與性能優化、自動化運維等穩定性建設措施,為AI平臺提供了堅實的算力底座。容器平臺在多維度探索降本提效解決方案,提升整體利用率,降低業務成本。其中單卡維度的自研虛擬化技術實現多容器無干擾共享,做到"一卡三用"。在單服務維度的GPU彈性伸縮方案自動應對負載變化,減少閑置與運維負擔。在多服務維度的訓推潮汐部署方案實現資源分時復用,緩解訓練資源短缺。在多機多卡維度通過RDMA容器降低跨節點通信時延。
vivo Al工程架構師劉東陽則表示,VTraining訓練平臺是在容器能力之上構建,支撐vivo手機的藍心小V等核心產品的大模型訓練業務。在大規模訓練穩定性實踐中,通過減少基礎設施高頻故障、完善任務故障處置流程兩大措施,成功實現了機器每日故障率從2%降低到1‰的突破,千卡任務有效訓練時長從60%提升到99%,達到行業一流水平。另外,平臺在GPU利用率提升實踐中,通過低優任務、訓推潮汐部署、GPU虛擬化等策略,深度適配差異化業務場景,實現了資源的高效復用。

vivo Al工程架構師 劉東陽
未來,容器平臺將重點建設多集群調度、在離線GPU混部、GPU資源池化等能力,AI訓練平臺則聚焦大模型訓練穩定性、訓練全流程支撐與GPU資源精細化運營。致力于讓vivo智能計算業務更加穩定、資源利用更加高效。
關鍵詞: